With the wide applications of colored point cloud in many fields, point cloud perceptual quality assessment plays a vital role in the visual communication systems owing to the existence of quality degradations introduced in various stages. However, the existing point cloud quality assessments ignore the mechanism of human visual system (HVS) which has an important impact on the accuracy of the perceptual quality assessment. In this paper, a progressive knowledge transfer based on human visual perception mechanism for perceptual quality assessment of point clouds (PKT-PCQA) is proposed. The PKT-PCQA merges local features from neighboring regions and global features extracted from graph spectrum. Taking into account the HVS properties, the spatial and channel attention mechanism is also considered in PKT-PCQA. Besides, inspired by the hierarchical perception system of human brains, PKT-PCQA adopts a progressive knowledge transfer to convert the coarse-grained quality classification knowledge to the fine-grained quality prediction task. Experiments on three large and independent point cloud assessment datasets show that the proposed no reference PKT-PCQA network achieves better of equivalent performance comparing with the state-of-the-art full reference quality assessment methods, outperforming the existed no reference quality assessment network.
translated by 谷歌翻译
大规模蛋白质语言模型(PLM)在蛋白质预测任务中的性能提高,范围从3D结构预测到各种功能预测。特别是,Alphafold(一种开创性的AI系统)可能会重塑结构生物学。但是,尚未探索超出结构预测的AlphaFold,Evoformer的PLM模块的效用。在本文中,我们研究了三个流行PLM的表示能力:ESM-1B(单序),MSA转换器(多个序列比对)和Evoformer(结构),并特别关注Evoformer。具体而言,我们旨在回答以下关键问题:(i)作为Alphafold的一部分,Evoformer是否会产生可预测蛋白质功能的表示形式? (ii)如果是的,可以替换ESM-1B和MSA转换器? (iii)这些PLM多少依赖于进化相关的蛋白质数据?在这方面,他们彼此补充吗?我们通过实证研究以及新的见解和结论来比较这些模型。最后,我们发布代码和数据集以获得可重复性。
translated by 谷歌翻译
在本文中,我们介绍了VCSL(视频复制段本地化),这是一种新的综合段级注释的视频复制数据集。与受视频级注释或小规模限制的现有复制检测数据集相比,VCSL不仅具有两个段级标签的数据级,其中有160k现实的视频副本对,其中包含超过280k的本地化copied seggment对,而且还包含超过280k涵盖各种视频类别和各种视频持续时间。每个收集的视频对中的所有复制段均经过手动提取,并伴随着精确注释的启动和结束时间戳。除了数据集外,我们还提出了一种新颖的评估协议,该协议可以更好地衡量视频对之间复制重叠段的预测准确性,并在不同情况下显示出改善的适应性。通过使用拟议的数据集和评估指标对几个基线和最先进的细分级视频副本检测方法进行基准测试,我们提供了一项全面的分析,可以揭示当前方法的优势和劣势作品。 VCSL数据集,公制和基准代码均在https://github.com/alipay/vcsl上公开获得。
translated by 谷歌翻译
手写数学表达识别(HMER)是具有许多潜在应用的挑战性任务。 HMER的最新方法通过编码器架构实现了出色的性能。但是,这些方法符合“从一个字符到另一个字符”进行预测的范式,由于数学表达式或厌恶的手写的复杂结构,这不可避免地会产生预测错误。在本文中,我们为HMER提出了一种简单有效的方法,该方法是第一个将语法信息纳入编码器编码器网络的方法。具体而言,我们提出了一组语法规则,用于将每个表达式的乳胶标记序列转换为一个解析树。然后,我们将标记序列预测建模为具有深神经网络的树遍布过程。通过这种方式,提出的方法可以有效地描述表达式的语法上下文,从而减轻HMER的结构预测错误。在三个基准数据集上的实验表明,与先前的艺术相比,我们的方法实现了更好的识别性能。为了进一步验证我们方法的有效性,我们创建了一个大规模数据集,该数据集由从一万个作家中获取的100k手写数学表达图像组成。该工作的源代码,新数据集和预培训的模型将公开可用。
translated by 谷歌翻译
基于强化学习(RL)的图表行走在导航代理人通过探索多跳关系路径来导航代理以通过不完整的知识图(kg)来自动完成各种推理任务。然而,现有的多跳推理方法仅在短路推理路径上工作,并且倾向于利用增加的路径长度错过目标实体。这对于实际情况中的许多理由任务是不可取的,其中连接源实体的短路不完整的公斤,因此,除非代理能够寻求更多的线索,否则推理性能急剧下降路径。为了解决上述挑战,在本文中,我们提出了一种双代理强化学习框架,该框架列举了两个代理(巨型和矮人),共同走过了公斤,并协同寻找答案。我们的方法通过将其中一个代理(巨型)进行了快速寻找群集路径并为另一代理(DWARF)提供阶段明智的提示来解决长途路径中的推理挑战。最后,对几千克推理基准测试的实验结果表明,我们的方法可以更准确,高效地搜索答案,并且优于大型余量的长路径查询的基于RL的基于RL的方法。
translated by 谷歌翻译
蛋白质功能预测的最新进展利用了基于图的深度学习方法,以将蛋白质的结构和拓扑特征与其分子功能相关联。然而,体内蛋白质不是静态的,而是为功能目的改变构象的动态分子。在这里,我们通过在动态相关的残基对之间连接边缘,将正常模式分析应用于天然蛋白质构象和增强蛋白图。在Multilabel函数分类任务中,我们的方法基于此动态信息表示,演示了出色的性能增益。提出的图形神经网络(Prodar)提高了残基级注释的可解释性和普遍性,并鲁棒反映了蛋白质中的结构细微差别。我们通过比较HMTH1,硝基酚蛋白和SARS-COV-2受体结合结构域的类激活图来阐明图表中动态信息的重要性。我们的模型成功地学习了蛋白质的动态指纹,并指出了功能影响的残基,具有广泛的生物技术和药物应用的巨大潜力。
translated by 谷歌翻译
作为公开交易公司的定期电话会议,盈利呼叫(EC)已被广泛地研究作为企业基本面的高分析价值,作为基本的市场指标。最近的深度学习技术的出现在创建自动化管道方面表现出很大的承诺,使EC支持的财务应用程序受益。然而,这些方法认为所有包含的内容都是信息,而无需从长文本的成绩单中炼制有价值的语义并遭受EC稀缺问题。同时,这些黑箱方法具有在提供人为可理解的解释方面具有固有的困难。为此,本文提出了一种基于多域变换器的反事实增强,命名为MTCA,以解决上述问题。具体而言,我们首先提出基于变压器的EC编码器,以术语地量化关键额型欧共事位议对市场推理的任务启发意义。然后,开发了一种多域反事实学习框架,以评估具有充满丰富的跨域文档的有限EC信息文本之后基于梯度的变体,使MTCA能够执行无监督的数据增强。作为奖励,我们发现一种使用非培训数据作为基于实例的解释,我们将结果与案例研究显示。对现实世界金融数据集的广泛实验证明了可解释的MTCA的有效性,以提高最先进的最新的挥发性评估能力14.2 \%的准确性。
translated by 谷歌翻译
虽然来自X-ray Sinograms的计算机断层摄影(CT)重建是临床诊断所必需的,但成像过程中的碘辐射诱导不可逆损伤,从而驾驶研究人员研究稀疏视图CT重建,即恢复高质量CT图像一套稀疏的一组席克图。建议迭代模型缓解稀疏视图CT图像中出现的伪像,但计算成本太昂贵。然后,基于深度学习的方法由于性能优异和计算而获得了普遍存在。但是,这些方法忽略了CNN的\ TextBF {本地}特征提取功能和Sinogram的\ TextBF {Global}特征之间的不匹配。为了克服这个问题,我们提出\ textbf {du} al- \ textbf {do} main \ textbf {trans}以前(\ textbf {dudotrans}),通过变压器的远程依赖性建模能力同时恢复信息化的中文曲线图和重建CT图像与增强和未加工的叠层图。利用如此新颖的设计,NIH-AAPM数据集和Covid-19数据集上的重建性能实验证实了Dudotrans的有效性和概括性与较少涉及的参数。广泛的实验还展示了具有稀疏视图CT重建的不同噪声级方面的鲁棒性。代码和模型在https://github.com/dudotrans/code上公开使用
translated by 谷歌翻译
我们发现从波动光学洞察复杂和实值神经网络的异质性,声称比其幅度对应的权重矩阵的阶段更加重要的作用。在复值神经网络,我们表明,不同类型的修剪中,只有相位信息保存达到最佳精度,它拥有强劲下各种深度和宽度的权重矩阵。结论可以推广到实值神经网络,其中的标志取相的地方。这些鼓舞人心的发现丰富了网络修剪和二进制计算的技术。
translated by 谷歌翻译
伯特的预先接受的语言模型在广泛的自然语言处理任务中取得了巨大成功。然而,由于缺乏两个域知识,即短语级和产品级别,BERT不能很好地支持电子商务相关任务。一方面,许多电子商务任务需要准确地了解域短语,而这种细粒度的短语级知识没有通过BERT的训练目标明确建模。另一方面,产品级知识如产品关联可以增强电子商务的语言建模,但它们不是事实知识,从而不分青红皂白可以引入噪音。为了解决问题,我们提出了一个统一的训练框架,即E-BERT。具体地,为了保留短语级知识,我们引入自适应混合屏蔽,其允许模型基于两种模式的拟合进度自适应地切换到学习复杂短语的学习初步知识。为了利用产品级知识,我们引入了邻居产品重建,该重建将E-BERT列举,以预测产品的相关邻居,具有去噪的杂交层。我们的调查揭示了四个下游任务,即基于审查的问题回答,方面提取,宽度情绪分类和产品分类。
translated by 谷歌翻译